Metadados

Fechar
Metadados

1. Identificação

Tipo de Referência Tese ou Dissertação (Thesis)

Site mtc-m21d.sid.inpe.br

Código do Detentor isadg {BR SPINPE} ibi 8JMKD3MGPCW/3DT298S

Identificador 8JMKD3MGP3W34T/4AQ4DCB

Repositório sid.inpe.br/mtc-m21d/2024/02.22.13.00

Última Atualização 2024:05.08.14.07.17 (UTC) simone

Repositório de Metadados sid.inpe.br/mtc-m21d/2024/02.22.13.00.24

Última Atualização dos Metadados 2024:05.08.15.13.45 (UTC) simone

Chave Secundária INPE-18825-TDI/3419

Chave de Citação Santana:2024:AlBaAp

Título Algoritmo baseado no aprendizado por reforço para o controle do apontamento de satélites utilizando redes neurais

Título Alternativo Reinforcement learning based algorithm for the control of satellite pointing using neural networks

Curso CMC-ETES-DIPGR-INPE-MCTI-GOV-BR

Ano 2024

Data 2024-02-20

Data de Acesso 08 maio 2024

Tipo da Tese Dissertação (Mestrado em Mecânica Espacial e Controle)

Tipo Secundário TDI

Número de Páginas 155

Número de Arquivos 2

Tamanho 10897 KiB

2. Contextualização

Autor Santana, Gabriel Goes Aragão

Banca Rocco, Evandro Marconi (presidente) Chagas, Ronan Arraes Jardim (orientador) Garcia, Roberta Veloso

Endereço de e-Mail gabrielgoesas@gmai.com

Universidade Instituto Nacional de Pesquisas Espaciais (INPE)

Cidade São José dos Campos

Histórico (UTC) 2024-02-23 21:05:31 :: gabriel.santana@inpe.br -> pubtc@inpe.br :: 2024-02-26 12:22:17 :: pubtc@inpe.br -> gabriel.santana@inpe.br :: 2024-03-06 13:53:50 :: gabriel.santana@inpe.br -> administrator :: 2024-03-11 12:00:08 :: administrator -> pubtc@inpe.br :: 2024-03-11 12:00:50 :: pubtc@inpe.br -> gabriel.santana@inpe.br :: 2024-03-22 12:42:53 :: gabriel.santana@inpe.br -> pubtc@inpe.br :: 2024-05-08 15:12:37 :: pubtc@inpe.br -> simone :: 2024-05-08 15:13:17 :: simone :: -> 2024 2024-05-08 15:13:45 :: simone -> :: 2024

3. Conteúdo e estrutura

É a matriz ou uma cópia? é a matriz

Estágio do Conteúdo concluido

Transferível 1

Palavras-Chave controle de atitude controle inteligente aprendizado por reforço redes neurais linguagem Julia attitude control intelligent control reinforcement learning neural networks Julia language

Resumo O presente trabalho aplica o paradigma do Aprendizado por Reforço (Reinforcement Learning, RL), um subcampo de Machine Learning, ao problema de controle de atitude de um satélite. Nessa formulação, um agente interage com um ambiente, modificando seu estado ao realizar ações e recebendo uma recompensa - um sinal escalar - de forma a punir ou recompensar suas decisões. Por um processo de tentativa e erro, o agente deve encontrar a forma ótima de agir. Em anos recentes, desenvolvimentos inspirados em novas ideias deram origem a uma variedade de algoritmos, capazes de serem aplicados em uma grande quantidade de ambientes desafiadores. Em sua essência, esses algoritmos utilizam-se de redes neurais artificias (RNAs) para representar suas funções de interesse. Dessa forma, surge a possibilidade de aplicar as técnicas do RL aos problemas de controle tradicional, como o controle de atitude. Dominar essas ferramentas traria ganhos práticos, à medida que permitiria um ajuste automático dos parâmetros do controlador, o controle em situações muito diferentes do cenário nominal e a possibilidade de realização de missões mais desafiadoras e que requeiram uma menor interferência humana. Três algoritmos modernos do RL foram selecionados: DDPG (Deep Deterministic Policy Gradient), TD3 (Twin Delayed DDPG) e SAC (Soft Actor-Critic). Tanto a implementação desses algoritmos quanto a dinâmica de atitude do satélite foram escritas na linguagem Julia. Um cenário em particular, no qual a matriz de momento do inércia do satélite é variável, também é simulado. De maneira a comparar a solução do RL, o controlador proporcional-derivativo (PD) do satélite Amazonia-1 serve como referência. Considerações práticas acerca da estrutura da rede, em termos de função de ativação, topologia e número de camadas são discutidas como forma de inserir conhecimento prévio e acelerar o aprendizado. Dentre os três algoritmos, o SAC mostra-se constantemente o mais estável, não apenas resolvendo o problema convencional como também sendo capaz de controlar de maneira adequada o problema de inércias variáveis. As redes obtidas são relativamente pequenas, o que indica que a implementação nos computadores de bordo é possível. Embora a questão fundamental da estabilidade do RL seja identificada como o maior problema existente para seu uso prático, os resultados indicam que a combinação de RL com ideias do controle convencional pode ser uma forma atraente para a resolução de problemas desafiadores na área espacial. ABSTRACT: The present work applies the Reinforcement Learning (RL) paradigm, a subfield of Machine Learning, to the attitude control problem for a satellite. In this formulation, an agents interacts with an environment, changing its state by selecting actions and receiving a reward - a scalar sign - so as to punish or reward its decisions. By a trial-and-error approach, the agent should learn an optimum way to behave. Driven by novel ideas, recent years have witnessed major developments in the field, leading to a variety of algorithms capable of tackling numerous challenging environments. At its core, these algorithms employ artificial neural networks (ANNs) to represent their functions of interest. This way, a possibility arises of applying RL techniques to traditional control problems, which includes attitude control. Mastering this technique would be of practical importance, as it would allow the automatic tuning of controller parameters, control in situations far from the nominal scenario and it could enable more challenging missions to be carried out, requiring less human interference. Three modern RL algorithms were selected: DDPG (Deep Deterministic Policy Gradient), TD3 (Twin Delayed TD3) and SAC (Soft Actor-Critic). Their implementation as well as the satellite attitude dynamics were written in the Julia language. A particular scenario, in which the satellites moment of inertia matrix is variable, is also simulated. The proportional-derivative (PD) control onboard the Amazonia-1 satellite is used as a reference, allowing a comparison with the RL solutions. Practical considerations concerning the desired network structure in terms of activation function, topology and number of hidden layers are discussed. These points are important as they help by providing previous knowledge to the agent and thus speed up the learning process. Among the three algorithms, SAC constantly proves itself to be the most stable, not only solving the conventional problem but also being able to adequately control the problem of variable inertia. The employed networks are relatively small, which indicates their implementation on real computers used in space missions is feasible. Even though the fundamental issue of stability is identified as the biggest hurdle to real applications, the results indicate that the combination of RL with conventional control ideas may be a promising approach to solve challenging problems in the space sector.

Área ETES

Conteúdo da Pasta doc acessar

Conteúdo da Pasta source

originais/@4primeirasPaginas (1).pdf 08/05/2024 11:00 173.6 KiB originais/Defesa.pdf 27/03/2024 11:51 120.9 KiB originais/publicacao.pdf 26/03/2024 09:46 10.4 MiB

Conteúdo da Pasta agreement

autorizacao.pdf 08/05/2024 11:07 90.2 KiB

4. Condições de acesso e uso

URL dos dados http://urlib.net/ibi/8JMKD3MGP3W34T/4AQ4DCB

URL dos dados zipados http://urlib.net/zip/8JMKD3MGP3W34T/4AQ4DCB

Idioma pt

Arquivo Alvo publicacao.pdf

Grupo de Usuários gabriel.santana@inpe.br pubtc@inpe.br simone

Visibilidade shown

Licença de Direitos Autorais urlib.net/www/2012/11.12.15.10

Detentor dos Direitos originalauthor yes

Permissão de Leitura allow from all

Permissão de Atualização não transferida

5. Fontes relacionadas

Repositório Espelho urlib.net/www/2021/06.04.03.40.25

Acervo Hospedeiro urlib.net/www/2021/06.04.03.40

6. Notas

Campos Vazios academicdepartment affiliation archivingpolicy archivist callnumber contenttype copyholder creatorhistory descriptionlevel dissemination doi electronicmailaddress format group isbn issn label lineage mark nextedition nexthigherunit notes number orcid parameterlist parentrepositories previousedition previouslowerunit progress readergroup resumeid schedulinginformation secondarydate secondarymark session shorttitle sponsor subject tertiarymark tertiarytype url versiontype

Fechar